## ENTORNO Y LIBRERÍAS
# 1. Configurar un mirror de CRAN ANTES de intentar instalar (Soluciona el error 'trying to use CRAN without setting a mirror')
options(repos = c(CRAN = "https://cran.rstudio.com/"))
# Vector con los paquetes necesarios
paquetes <- c("readr", "dplyr", "ggplot2", "plotly", "knitr", "kableExtra","tidyr", "reshape2","hexbin")
# Verificar cuáles paquetes no están instalados
instalados <- paquetes %in% rownames(installed.packages())
# Instalar los paquetes faltantes
if (any(!instalados)) {
# Instalamos y mostramos el progreso si faltan paquetes
message("Instalando paquetes faltantes...")
install.packages(paquetes[!instalados], dependencies = TRUE)
}
# Cargar todos los paquetes de forma automática
invisible(lapply(paquetes, library, character.only = TRUE))Análisis de Salud Mental y Redes Sociales
Objetivo del análisis
El objetivo de este trabajo es generar un documento de análisis de datos que evidencie las etapas de selección, limpieza, exploración y comunicación.
Para ello, se ha seleccionado el dataset “Mental Health and Social Media Balance”, obtenido de la plataforma Kaggle. Este conjunto de datos contiene 500 registros, donde cada fila representa a un individuo único. Se obtuvo de: Kaggle Dataset Link
Este conjunto de datos explora la relación entre el uso de las redes sociales y la salud mental. Incluye información sobre el tiempo de pantalla de los usuarios, la calidad del sueño, los niveles de estrés, la frecuencia de ejercicio y el índice de felicidad. El objetivo es comprender cómo los hábitos digitales y los factores del estilo de vida influyen en el bienestar general y el equilibrio emocional.
Nota sobre la variable Social_Media_Platform: Cada registro incluye la plataforma social que el usuario utiliza con mayor frecuencia (por ejemplo, TikTok, Instagram, LinkedIn, Facebook, YouTube o X/Twitter). Esta información permite analizar si existen diferencias en los hábitos digitales y el bienestar según la red social predominante.
Entornos y librerías
1.SELECCIÓN
1.1 Carga de datos
datos <- read_delim("Mental_Health_and_Social_Media_Balance_Dataset.csv",
delim = ",", show_col_types = FALSE)1.2 Dimensiones del dataset
dim(datos)[1] 500 10
1.3 Resumen general
summary(datos) User_ID Age Gender Daily_Screen_Time(hrs)
Length:500 Min. :16.00 Length:500 Min. : 1.00
Class :character 1st Qu.:24.00 Class :character 1st Qu.: 4.30
Mode :character Median :34.00 Mode :character Median : 5.60
Mean :32.99 Mean : 5.53
3rd Qu.:41.00 3rd Qu.: 6.70
Max. :49.00 Max. :10.80
Sleep_Quality(1-10) Stress_Level(1-10) Days_Without_Social_Media
Min. : 2.000 Min. : 2.000 Min. :0.000
1st Qu.: 5.000 1st Qu.: 6.000 1st Qu.:2.000
Median : 6.000 Median : 7.000 Median :3.000
Mean : 6.304 Mean : 6.618 Mean :3.134
3rd Qu.: 7.000 3rd Qu.: 8.000 3rd Qu.:5.000
Max. :10.000 Max. :10.000 Max. :9.000
Exercise_Frequency(week) Social_Media_Platform Happiness_Index(1-10)
Min. :0.000 Length:500 Min. : 4.000
1st Qu.:1.000 Class :character 1st Qu.: 7.000
Median :2.000 Mode :character Median : 9.000
Mean :2.448 Mean : 8.376
3rd Qu.:3.000 3rd Qu.:10.000
Max. :7.000 Max. :10.000
Interpretación preliminar: El resumen estadístico revela que la muestra está compuesta por adultos de entre 16 y 49 años, con un consumo promedio de pantalla elevado (5.5 horas diarias).
Un hallazgo destacable es la aparente contradicción entre los niveles de bienestar: mientras que la mediana del Nivel de Estrés es considerable (7), el Índice de Felicidad es extremadamente alto (Mediana de 9), lo que sugiere una distribución sesgada hacia valores altos en esta última variable. Además, no se observan valores faltantes (NA) ni rangos inconsistentes a primera vista.
El análisis del resumen general también nos proporciona contexto sobre el estilo de vida de la muestra. Se observa que, si bien el uso diario de pantalla es elevado (Media de 5.53 horas), la Calidad del Sueño se mantiene en un nivel moderado (Media de 6.3). Complementariamente, la Frecuencia de Ejercicio (Media de 2.44 veces/semana) será un factor crucial a explorar, ya que puede estar actuando como un balanceador entre el estrés y la felicidad reportada.
Ante este resultado, el presente análisis buscará entender la relación entre tiempo de pantalla, estrés y felicidad. Investigaré la paradoja de la convivencia entre alto estrés y alta felicidad, buscando la existencia de patrones. Finalmente, analizaré si existen plataformas específicas (ej. TikTok vs LinkedIn) asociadas a un mayor consumo o malestar.
1.4 Primeras 10 filas en tabla
| User_ID | Age | Gender | Daily_Screen_Time(hrs) | Sleep_Quality (1-10) | Stress_Level (1-10) | Days_Without_Social_Media | Exercise_Frequency(week) | Social_Media_Platform | Happiness_Index (1-10) |
|---|---|---|---|---|---|---|---|---|---|
| U001 | 44 | Male | 3.1 | 7 | 6 | 2 | 5 | 10 | |
| U002 | 30 | Other | 5.1 | 7 | 8 | 5 | 3 | 10 | |
| U003 | 23 | Other | 7.4 | 6 | 7 | 1 | 3 | YouTube | 6 |
| U004 | 36 | Female | 5.7 | 7 | 8 | 1 | 1 | TikTok | 8 |
| U005 | 34 | Female | 7.0 | 4 | 7 | 5 | 1 | X (Twitter) | 8 |
| U006 | 38 | Male | 6.6 | 5 | 7 | 4 | 3 | 8 | |
| U007 | 26 | Female | 7.8 | 4 | 8 | 2 | 0 | TikTok | 7 |
| U008 | 26 | Female | 7.4 | 5 | 6 | 1 | 4 | 7 | |
| U009 | 39 | Male | 4.7 | 7 | 7 | 6 | 1 | YouTube | 9 |
| U010 | 39 | Female | 6.6 | 6 | 8 | 0 | 2 | 7 |
2. LIMPIEZA
2.1 Control para asegurar que no haya inconsistencias
calidad_datos <- datos %>%
summarise(
Errores_Edad = sum(Age < 10 | Age > 100),
Errores_Pantalla = sum(`Daily_Screen_Time(hrs)` < 0 | `Daily_Screen_Time(hrs)` > 24),
Errores_Indice_Felicidad = sum(`Happiness_Index(1-10)` < 1 | `Happiness_Index(1-10)` > 10)
)
kable(calidad_datos)| Errores_Edad | Errores_Pantalla | Errores_Indice_Felicidad |
|---|---|---|
| 0 | 0 | 0 |
Se confirma que no hay valores inconsistentes o atípicos
2.2 Transformación y Depuración
En este paso se recodifican las variables de texto a factores (Gender, Social_Media_Platform) para su correcta interpretación en la visualización. Además, se crea la variable ordinal Stress_Category a partir de la escala numérica de estrés, lo cual es esencial para realizar comparaciones por grupos (como Boxplots y tablas de resumen) en la etapa de Exploración. También se la convierte a factor.
datos_limpios <- datos %>%
mutate(
Gender = factor(Gender),
Social_Media_Platform = factor(Social_Media_Platform),
Stress_Category = case_when(
`Stress_Level(1-10)` <= 4 ~ "Bajo (1-4)",
`Stress_Level(1-10)` <= 7 ~ "Medio (5-7)",
TRUE ~ "Alto (8-10)"
),
Stress_Category = factor(Stress_Category,
levels = c("Bajo (1-4)", "Medio (5-7)", "Alto (8-10)"),
ordered = TRUE)
)3. EXPLORACIÓN
3.1 Análisis Univariado
En esta sección profundizaremos en el comportamiento individual de las variables claves. Este análisis gráfico actúa como un complemento visual al resumen estadístico (summary) presentado anteriormente, permitiéndonos detectar formas de distribución, sesgos y patrones de frecuencia.
3.1.1 Distribución de Edad
La muestra está compuesta principalmente por adultos jóvenes y de mediana edad, con una mediana de 34 años y la mayoría concentrada entre 24 y 41 años. Esto indica que el grupo analizado corresponde a personas en etapas activas de vida laboral y social. Los extremos son poco frecuentes: menores de 20 años representan una proporción reducida, y no hay presencia de adultos mayores (≥60). En conjunto, la distribución sugiere que el análisis se centra en una muestra orientada a perfiles productivos, lo que puede influir en patrones como uso de redes sociales, tiempo frente a pantalla y niveles de estrés.
3.1.2 Distribución de Estrés
La distribución de los niveles de estrés en la muestra de 500 individuos presenta un claro sesgo hacia valores altos. El puntaje de estrés más frecuente es 7, seguido por 8 y 6, lo que sitúa el centro de la distribución en la mitad superior de la escala. El análisis categórico confirma que la mayoría de los usuarios se concentran en el rango de Estrés Medio (5-7) y Alto (8-10), mientras que el Estrés Bajo es el menos común.
3.1.3 Distribución por Género
La muestra está compuesta principalmente por personas identificadas como masculinos (248) y femeninos (229), con una diferencia pequeña entre ambos grupos. La categoría Other representa una proporción muy reducida (23 casos).
3.1.4 Distribución de Felicidad
El histograma presenta una clara asimetría hacia la izquierda. La gran mayoría de los datos se agrupan en los valores más altos, con el puntaje 10 como el más frecuente (moda). La falta de respuestas en los niveles bajos (1-3) evidencia una fuerte tendencia de la muestra a reportar niveles máximos de bienestar.
3.2 Análisis Bivariado
Una vez comprendida la distribución individual de las variables, procedemos a evaluar la interacción entre ellas.
3.2.1 Relación entre Tiempo de Pantalla y Felicidad
Este gráfico confirma la fuerte correlación inversa y enriquece el hallazgo conectándolo con el análisis univariado. Se observa claramente un núcleo de alta densidad (zonas más claras/brillantes) en los niveles de felicidad 8, 9 y 10.
Sin embargo, este núcleo se desplaza hacia abajo a medida que nos movemos a la derecha en el eje X (más horas de pantalla). Esto evidencia visualmente que, aunque la muestra tiende a ser feliz, sostener esos niveles de bienestar se vuelve muy difícil para los usuarios con consumo digital intensivo.
3.2.2 Relación entre Uso de Pantalla vs Estrés
| Stress_Category | Promedio_Horas | Mediana_Horas | Desvio_Estandar |
|---|---|---|---|
| Bajo (1-4) | 3.24 | 3.0 | 1.18 |
| Medio (5-7) | 5.11 | 5.1 | 1.34 |
| Alto (8-10) | 7.15 | 7.1 | 1.25 |
El gráfico confirma una relación directa: a mayor estrés, mayor tiempo frente a la pantalla. Se observa una brecha de 4.1 horas en la mediana de uso entre los grupos extremos (3.0 h en Estrés Bajo vs. 7.1 h en Estrés Alto). La clara separación entre las cajas del boxplot indica que el uso intensivo de dispositivos es un comportamiento distintivo asociado al malestar psicológico, y no un hecho aislado.
3.2.3 Relación Felicidad vs Estrés
`geom_smooth()` using formula = 'y ~ x'
El gráfico evidencia una relación inversa marcada entre estrés y felicidad. Se observa que la mayor densidad de puntos se concentra en niveles de Felicidad alta (puntuaciones de 9 y 10), incluso cuando el Estrés se sitúa en rangos medios (5-7 puntos). Esto puede indicar que, para esta muestra, el estrés moderado es un estado normalizado o percibido como saludable (Eustrés). No obstante, la línea de tendencia confirma que el incremento del estrés a niveles altos (por encima de 8) se asocia con una caída significativa en la percepción de felicidad.
3.2.4 Mapa de calor de correlaciones
Para finalizar esta sección y asegurarnos de no omitir ninguna relación relevante entre las variables numéricas restantes, presentamos un mapa de calor (heatmap) que resume todas las interacciones del dataset.
Este gráfico nos permite validar los hallazgos previos y descubrir nuevas conexiones en las variables que no graficamos individualmente:
1- El rol oculto del Sueño: Se observa que la Calidad del Sueño) juega un papel fundamental. Tiene una correlación positiva muy fuerte con la Felicidad (0.73) y negativa con el Tiempo de Pantalla (-0.63). Esto sugiere un efecto en cadena: más pantallas -> peor sueño -> menos felicidad.
2- Validación del Triángulo Principal: Los colores más intensos confirman que el triángulo Estrés-Pantalla-Felicidad presenta las correlaciones más fuertes del sistema, validando que son los ejes principales del bienestar en esta muestra.
3-Variables de bajo impacto: Confirmamos que ni la Edad, ni hacer Ejercicio tienen un peso determinante en la percepción de felicidad o estrés para este grupo de datos.
3.3 Análisis Multivariado
Una vez confirmadas las relaciones bivariadas principales, elevamos el nivel del análisis. Incorporamos dos variables: el Género y la Plataforma Social al análisis de la relación entre felicidad y tiempo de pantalla. Esto permite determinar si alguna categoría actúa como un factor diferenciador o si el impacto digital es totalmente homogéneo.
3.3.1 Relacion entre Tiempo Pantalla vs Felicidad por Género
El análisis confirma que la tendencia negativa entre el tiempo de pantalla y la felicidad se manifiesta en todos los paneles del gráfico. Si bien existen diferencias en la dispersión de los puntos (matices), la regla básica de que a mayor uso de pantalla, menor es la felicidad se mantiene para todas las redes sociales principales.
4. COMUNICACIÓN
Conclusiones
El análisis de los 500 perfiles en el dataset Mental Health and Social Media Balance revela patrones claros sobre cómo nuestra vida digital moldea y a menudo deteriora el bienestar emocional.
1. Correlación Pantalla y Bienestar
Los datos confirman que existe una correlación inversa muy fuerte entre el tiempo que pasamos frente a la pantalla y nuestro índice de felicidad.
Aunque muchos usuarios reportan altos niveles de bienestar, esta disminuye sistemáticamente con el incremento del tiempo digital. Este no es un problema casual; es una tendencia robusta que demuestra que la gestión del tiempo digital es vital.
2. Estrés y Consumo Digital
Se confirma una relación directa entre el estrés y el consumo digital: las personas con estrés alto duplican la mediana de tiempo frente a la pantalla respecto a quienes tienen estrés bajo (pasando de aproximadamente 3 horas a aproximadamente 7 horas diarias). Este alto consumo se convierte en un factor que aumenta los niveles de estrés.
3. El Tiempo Total como Factor Crítico
Analizamos si el problema estaba en la plataforma, pero la respuesta es: el problema no es la red social, es el tiempo total de exposición.
La tendencia negativa entre tiempo de pantalla y bienestar se observó uniformemente en todos los géneros y en todas las plataformas (TikTok, LinkedIn, Instagram, etc.). La intensidad del impacto digital es la misma para el perfil más joven que para el adulto de mediana edad.
Reflexión Final:
Las redes sociales son herramientas poderosas para la conexión y el entretenimiento. Aunque los datos utilizados son de naturaleza educativa, reflejan una realidad que muchos percibimos: el uso excesivo está fuertemente asociado con indicadores negativos de salud mental. Reducir el tiempo frente a la pantalla de los dispositivos moviles es esencial para proteger nuestro equilibrio emocional en la era digital.